機率與統計：不確定性的科學：透過條件分佈定義關係

歡迎來到統計學的范式轉變。我們已超越「趨勢線」的簡單直覺，進入一個嚴謹的 分佈框架。在這裡，我們將關係定義為不僅僅是相關係數，而是當預測變量 $X$ 變化時，響應變量 $Y$ 的機率行為所發生的任何變化。

定義 10.1.1：統計上的連結

兩個變量 $X$ 與 $Y$ 被視為相關如果存在任何在給定 $X = x$ 時，$Y$ 的條件分佈隨 $x$ 變化而改變。反之，『無關係』狀態在數學上等價於 $X$ 與 $Y$ 的獨立性。

邏輯等價

變量 $X$ 與 $Y$ 無關，當且僅當對所有 $x$ 值皆有 $f(y|x) = f(y)$。這表示聯合相對頻率函數可分解為：

$$f(x, y) = f(x)f(y)$$

因此，檢驗關係本質上是一種對 獨立性的檢驗。

只要條件密度函數發生任何位移（如圖 10.1.1 所示），即被識別為關係。這包括：

統計關係並不代表因果關係。若要主張 $X$ 導致 $Y$，必須透過 實驗設計來考量混雜變量：

對照組： 提供比較的基準。
安慰劑效應： 透過非活性處置減輕感知改善。
盲法： 使用 單盲實驗 （受試者不知情）及 雙盲實驗 （受試者與研究人員皆不知情）以消除偏誤。
區組化： 如 範例 10.1.7中所示，我們使用區組變數（如土壤肥力的 $W$）確保小麥類型（$X$）與產量（$Y$）之間的關係不受先前條件的混淆。

🎯 核心數學估計

我們利用 條件似然 函數來估計這些連結。對於具有計數 $f_{ij}$ 的離散資料：

$$L = \prod_{i=1}^a \prod_{j=1}^b (\theta_{j|X=i})^{f_{ij}}$$ 標準誤差：$SE = \sqrt{\frac{\hat{\theta}_{ij}(1 - \hat{\theta}_{ij})}{n}}$

問題 1

根據定義 10.1.1，$X$ 和 $Y$ 被視為相關，必須發生什麼情況？

$X$ 與 $Y$ 的相關係數必須恰好為 1。

給定 $X=x$ 時，$Y$ 的條件分佈必須隨著 $x$ 變化而有所改變。

$X$ 與 $Y$ 必須具有函數關係 $Y = g(X)$，其中 $g$ 是線性的。

$X$ 與 $Y$ 必須獨立。

問題 2

假設當 $X = x$ 時，$Y$ 給定 $X$ 的條件分佈為 $N(1 + 2x, |x|)$。$X$ 與 $Y$ 是否相關？

是的，因為平均值（$1+2x$）與變異數（$|x|$）都隨著 $x$ 變化而改變。

否，因為 $N$ 始終是常態分配。

僅當 $x$ 為正整數時。

否，因為它們是獨立的。

問題 3

在臨床試驗中，『雙盲』實驗的目的為何？

確保樣本數加倍以提升檢驗效能。

防止受試者與研究人員知道誰接受了治療或安慰劑。

確保僅測試兩種不同的劑量。

滿足多項式似然函數的需求。

問題 4

為什麼函數方法 $Y = g(X)$ 通常無法充分應用於實際統計分析？

因為數學函數無法用於統計學。

因為現實世界中的關係涉及隨機不確定性或未觀測因素，而 $g(x)$ 無法捕捉這些內容。

因為 $g(X)$ 始終要求 $X$ 為類別變數。

因為似然函數僅適用於獨立變數。

問題 5

假設 $X$ 取值 1 與 2，且在 $X = 1$ 時 $Y$ 的條件分佈為 $N(0, 5)$，在 $X = 2$ 時為 $N(0, 7)$。$X$ 與 $Y$ 是否有關係？

否，因為兩種情況下平均值皆為 0。

是的，因為 $Y$ 的變異數（散布）由 5 變為 7。

否，因為關係需要期望值改變。

僅當 $Y$ 為離散變數時。